智能论文笔记

Relationship Quantification of Image Degradations

Wenxin Wang , Boyun Li , Yuanbiao Gou , Peng Hu , Xi Peng

分类：计算机视觉

2022-12-08

In this paper, we study two challenging but less-touched problems in image restoration, namely, i) how to quantify the relationship between different image degradations and ii) how to improve the performance of a specific restoration task using the quantified relationship. To tackle the first challenge, Degradation Relationship Index (DRI) is proposed to measure the degradation relationship, which is defined as the drop rate difference in the validation loss between two models, i.e., one is trained using the anchor task only and another is trained using the anchor and the auxiliary tasks. Through quantifying the relationship between different degradations using DRI, we empirically observe that i) the degradation combination proportion is crucial to the image restoration performance. In other words, the combinations with only appropriate degradation proportions could improve the performance of the anchor restoration; ii) a positive DRI always predicts the performance improvement of image restoration. Based on the observations, we propose an adaptive Degradation Proportion Determination strategy (DPD) which could improve the performance of the anchor restoration task by using another restoration task as auxiliary. Extensive experimental results verify the effective of our method by taking image dehazing as the anchor task and denoising, desnowing, and deraining as the auxiliary tasks. The code will be released after acceptance.

translated by 谷歌翻译

USB: A Unified Semi-supervised Learning Benchmark

Yidong Wang , Hao Chen , Yue Fan , Wang Sun , Ran Tao , Wenxin Hou , Renjie Wang , Linyi Yang , Zhi Zhou , Lan-Zhe Guo

分类：机器学习 | 人工智能 | 计算机视觉

2022-08-12

半监督学习（SSL）通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是，目前，流行的SSL评估协议通常受到计算机视觉（CV）任务的约束。此外，以前的工作通常从头开始训练深层神经网络，这是耗时且环境不友好的。为了解决上述问题，我们通过从简历，自然语言处理（NLP）和音频处理（AUDIO）中选择15种不同，具有挑战性和全面的任务来构建统一的SSL基准（USB），我们会系统地评估主导的SSL方法，以及开源的一个模块化和可扩展的代码库，以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本，以使成本负担得起，以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估，但成本较低。具体而言，在单个NVIDIA V100上，仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH，而335 GPU天（除ImageNet以外的4个CV数据集中的279 GPU天）在使用典型协议的5个CV任务上需要进行5个CV任务。

translated by 谷歌翻译

Evolutionary Game-Theoretical Analysis for General Multiplayer Asymmetric Games

Xinyu Zhang , Peng Peng , Yushan Zhou , Haifeng Wang , Wenxin Li

分类：人工智能

2022-06-22

进化游戏理论一直是将经典游戏理论与多动力系统中的学习动力描述相结合的成功工具。前提是一些相互作用玩家的对称结构，许多研究一直集中在使用简化的启发式收益表作为分析相互作用动态的输入。然而，即使对于最先进的方法，也有两个限制。首先，分析简化的收益表时存在不准确性。其次，没有现有的工作能够处理2种人口多人游戏不对称游戏。在本文中，我们填补了启发式收益表和动态分析之间的空白，而无需任何不准确。此外，我们为$ m $ $ n $ n $ 2人群的多人游戏提出了一个通用框架。然后，我们将方法与一些经典游戏中的最新方法进行了比较。最后，为了说明我们的方法，我们对Wolfpack和Starcraft II进行了经验游戏理论分析，这两者都涉及复杂的多基因相互作用。

translated by 谷歌翻译

AFDetV2: Rethinking the Necessity of the Second Stage for Object Detection from Point Clouds

Yihan Hu , Zhuangzhuang Ding , Runzhou Ge , Wenxin Shao , Li Huang , Kun Li , Qiang Liu

分类：计算机视觉

2021-12-16

从点云的3D检测中有两条流：单级方法和两级方法。虽然前者更加计算高效，但后者通常提供更好的检测精度。通过仔细检查两级方法，我们发现如果设计，第一阶段可以产生准确的盒子回归。在这种情况下，第二阶段主要重新分配盒子，使得具有更好的本地化的盒子得到选择。从这个观察开始，我们设计了一个可以满足这些要求的单级锚定网络。该网络名为AFDETV2，通过在骨干网中包含一个自校准的卷积块，键盘辅助监控和多任务头中的IOU预测分支来扩展了先前的工作。结果，检测精度在单阶段中大大提升。为了评估我们的方法，我们在Waymo Open DataSet和Nuscenes DataSet上进行了广泛的实验。我们观察到我们的AFDETv2在这两个数据集上实现了最先进的结果，优于所有现有技术，包括单级和两级SE3D探测器。 AFDETv2在Waymo Open DataSet挑战的实时3D检测中获得了第1位的第1位，我们的模型AFDetv2基地的变体题为挑战赞助商的“最有效的模型”，呈现出卓越的计算效率。为了证明这种单级方法的一般性，我们还将其应用于两级网络的第一阶段。毫无例外，结果表明，利用加强的骨干和救护方法，不再需要第二阶段细化。

translated by 谷歌翻译

Exploiting Unlabeled Data for Target-Oriented Opinion Words Extraction

Yidong Wang , Hao Wu , Ao Liu , Wenxin Hou , Zhen Wu , Jindong Wang , Takahiro Shinozaki , Manabu Okumura , Yue Zhang

分类：自然语言处理

2022-08-17

面向目标的意见单词提取（TOWE）是一项精细的情感分析任务，旨在从句子中提取给定意见目标的相应意见单词。最近，深度学习方法在这项任务上取得了显着进步。然而，由于昂贵的数据注释过程，TOWE任务仍然遭受培训数据的稀缺性。有限的标记数据增加了测试数据和培训数据之间分配变化的风险。在本文中，我们建议利用大量未标记的数据来通过增加模型对变化分布变化的暴露来降低风险。具体而言，我们提出了一种新型的多透明一致性正则化（MGCR）方法，以利用未标记的数据并设计两个专门用于TOWE的过滤器，以在不同的粒度上过滤嘈杂的数据。四个TOWE基准数据集的广泛实验结果表明，与当前的最新方法相比，MGCR的优越性。深入分析还证明了不同粒度过滤器的有效性。我们的代码可在https://github.com/towessl/towessl上找到。

translated by 谷歌翻译

HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow Prediction

Yihan Hu , Wenxin Shao , Bo Jiang , Jiajie Chen , Siqi Chai , Zhening Yang , Jingyu Qian , Helong Zhou , Qiang Liu

分类：计算机视觉

2022-06-21

在本报告中，我们在CVPR 2022的Waymo Open数据集挑战中介绍了解决方案和流程预测挑战，该挑战在排行榜上排名第一。我们已经开发了一个新型的层次空间时间网络，该网络具有时空编码器，一个富含潜在变量的多尺度聚合器以及一个递归层次结构3D解码器。我们使用多种损失，包括局灶性损失和修改的流量损失来有效指导训练过程。我们的方法达到了一个占地0.8389的流动占用AUC，并且优于排行榜上所有其他团队。

translated by 谷歌翻译

Boosting Cross-Domain Speech Recognition with Self-Supervision

Han Zhu , Gaofeng Cheng , Jindong Wang , Wenxin Hou , Pengyuan Zhang , Yonghong Yan

分类：自然语言处理

2022-06-20

由于训练和测试分布之间的不匹配，自动语音识别（ASR）的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据，并且在声学和语言水平上存在域移位，因此对ASR进行无监督的域适应性（UDA）是一项挑战。先前的工作表明，通过利用未标记的数据的自我检查，自我监督的学习（SSL）或伪标记（PL）可以有效地进行UDA。但是，这些自我介绍也面临不匹配的域分布中的性能退化，而以前的工作未能解决。这项工作提出了一个系统的UDA框架，可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面，我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面，我们提出了一种基于PL技术的域自适应微调方法，并具有三种独特的修改：首先，我们设计了一种双分支PL方法，以降低对错误的伪标签的敏感性；其次，我们设计了一种不确定性感知的置信度过滤策略，以提高伪标签的正确性。第三，我们引入了两步PL方法，以结合目标域语言知识，从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明，所提出的方法可以有效地提高跨域的性能，并显着超过以前的方法。

translated by 谷歌翻译

Transfer learning to decode brain states reflecting the relationship between cognitive tasks

Youzhi Qu , Xinyao Jian , Wenxin Che , Penghui Du , Kai Fu , Quanying Liu

分类：人工智能 | 机器学习

2022-06-07

转移学习通过利用特定源任务的数据来提高目标任务的性能：源和目标任务之间的关系越接近，通过转移学习的绩效提高越大。在神经科学中，认知任务之间的关系通常由激活的大脑区域或神经表示的相似性表示。但是，没有研究将转移学习和神经科学联系起来，以揭示认知任务之间的关系。在这项研究中，我们提出了一个转移学习框架，以反映认知任务之间的关系，并比较通过转移学习和大脑区域（例如Neurosynth）反映的任务关系。我们的转移学习结果创建了认知任务，以反映认知任务之间的关系，这与来自神经合成的任务关系非常一致。如果源和目标认知任务激活相似的大脑区域，则转移学习在任务解码方面的性能更好。我们的研究发现了多个认知任务的关系，并为基于小样本数据的神经解码转移学习中的源任务选择提供了指导。

translated by 谷歌翻译

Margin Calibration for Long-Tailed Visual Recognition

Yidong Wang , Bowen Zhang , Wenxin Hou , Zhen Wu , Jindong Wang , Takahiro Shinozaki

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-14

视觉识别任务中的长尾类分布对于如何处理头部和尾部类之间的偏置预测，即，模型倾向于将尾部类作为头部类进行分类。虽然现有的研究专注于数据重采采样和损失函数工程，但在本文中，我们采取了不同的视角：分类利润率。我们研究边距和注册之间的关系（分类得分）并经验遵守偏置边缘，并且偏置的Logits是正相关的。我们提出MARC，一个简单但有效的边缘校准函数，用于动态校准偏置边缘的偏置利润。我们通过对普通的长尾基准测试进行了广泛的实验，包括CIFAR-LT，Imagenet-LT，LT，以及不适物 - LT的广泛实验。实验结果表明，我们的MARC在这些基准上实现了有利的结果。此外，Marc只需三行代码即可实现。我们希望这种简单的方法能够激励人们重新思考偏置的边距和偏见的长尾视觉识别标识。

translated by 谷歌翻译

A Note on Comparison of F-measures

Wei Ju , Wenxin Jiang

分类： (统计)机器学习 | 机器学习

2021-12-09

我们对最近的TKDE论文评论了最近的TKDE纸张“F-Measet的线性近似，用于对不平衡数据集的分类算法的性能评估”，并与两个预测规则的F-措施比较有两个改进。

translated by 谷歌翻译